Cours 4 : estimation de variance par linéarisation

Paul Géhin

20 mars 2026

Linéarisation

Considérons :
- une population \(\mathcal{U}\) de taille \(N\) et un plan de sondage \(p\).
- un échantillon \(s\) obtenu grâce à \(p\).
- une variable d’intérêt \(\{y_k\}\) et un paramètre d’intérêt de la forme \(\displaystyle f(t_y)\)

Nous avons vu que l’estimateur par subtitution \(\displaystyle f(\hat{t}_{y,\text{HT}})\) permettait d’estimer \(\displaystyle f(t_y)\).
- Exemple : l’estimateur par subtitution de \(\log{t_y}\) est donné par \(\log{\hat{t}_{y,\text{HT}}}\).

Mais quel est la qualité de cet estimateur ?
- Le calcul de l’espérance et de la variance de ces estimateurs n’est en général pas possible…
- Utilisation d’approximation : méthode de linéarisation.

Solution : construire une variable \(\{\hat{u}_{k}\}\) telle que \(\mathbb{V}(f(\hat{t}_{y,\text{HT}})) \approx \mathbb{V}(f(\hat{t}_{u,\text{HT}}))\)

Linéarisation

Supposons de plus que \(f\) est régulière : \(f\) différentiable.

En utilisant un développement de Taylor (cas où \(f : \mathbb{R} \to \mathbb{R}\)): \[f(\hat{t}_{y,\text{HT}}) \approx f(t_y) + (\hat{t}_{y,\text{HT}} - t_y) f'(t_y)\]

Par passage à l’espérance : \[\mathbb{E}(f(\hat{t}_{y,\text{HT}})) \approx \mathbb{E}(f(t_y)) + \mathbb{E}((\hat{t}_{y,\text{HT}} - t_y) f'(t_y)) \approx \mathbb{E}(f(t_y))\] \(\to\) Si l’estimateur d’Horvitz-Thompson \(\hat{t}_{y,\text{HT}}\) est sans biais pour \(t_y\) alors \(f(t_{y,\text{HT}})\) l’est approximativement pour \(f(t_{y})\).

Par passage à la variance : \[\mathbb{V}(f(\hat{t}_{y,\text{HT}})) \approx \mathbb{V}((\hat{t}_{y,\text{HT}} - t_y) f'(t_y)) \approx \color{red}{\mathbb{V}((\hat{t}_{ f'(t_y) \times y,\text{HT}}))}\]

Théorème 1 (Biais de l’estimateur par substitution) Si l’estimateur d’Horvitz-Thompson \(\hat{t}_{y,\text{HT}}\) est sans biais pour \(t_y\) alors \(\mathbb{E}(f(\hat{t}_{y,\text{HT}})) - f(t_y) \approx 0\).

Linéarisation (2)

La variance d’un estimateur de la forme \(f(\hat t_{y,\text{HT}})\) est approximativement égale à la variance de l’estimateur du total de la variable \(u\) définie pour tout individu \(k, ~~ u_k = f'(t_y) \times y_k\) : \[ \mathbb{V}(f(\hat t_{y,\text{HT}})) \approx \mathbb{V}(\hat t_{u,HT}) \]

Intuitivement : la variance de \(f(\hat t_{y,\text{HT}})\) est approximativement la même que celle d’un estimateur d’Horvitz-Thompson pour une variable d’intérêt bien choisie \(\to\) rôle central de l’estimation du total.

La variable \(\{u_k\}_{k \in \mathcal{U}}\) est appelée variable linéarisée associée à \(f\).

Problème : cette variable est définie par pour tout individu \(k \in \mathcal{U} ~~ u_k = f'(\color{red}{t_y}) \times y_k \to\) il est donc nécessaire de connaître \(\displaystyle t_y = \sum_{k \in \mathcal{U}} y_k\) qui est inconnu.

Solution : estimer par subtitution la variable linéarisée \(\{u_k\}\).
- Pour l’individu \(k \in \mathcal{U}\), \(u_k = f'(t_y) \times y_k\) sera estimé par \(\hat{u}_k = f'(\hat{t}_{y,\text{HT}}) \times y_k\).

La variable \(\hat{u}_k\) est la variable linéarisée estimée.

Théorème 2 (Estimation de la variance par linéarisation - cas unidimensionnel) L’estimateur de la variance par linéarisation d’une fonction d’intérêt de la forme \(f(t_{y})\) est donné par \(\displaystyle \hat{\mathbb{V}}_\text{lin}(f(\hat{t}_{y,\text{HT}})) = \mathbb{V}(\hat t_{\hat{u},HT})\)

Exemple de linéarisation - cas unidimensionnel

On suppose que l’échantillon \(s\) dont nous disposons est tiré selon un plan de sondage tel que pour tout individu \(k \in \mathcal{U}, ~ \pi_k > 0\) \(\to\) l’estimateur du total d’Horvitz-Thompson \(\hat{t}_{y,\text{HT}}\) est un estimateur sans biais de \(t_y\).

Dans cet exemple, la variable d’intérêt prend des valeurs strictement positives.

Nous souhaitons estimer \(\log{t_y}\) : un estimateur par subtitution est donné par \(\log{\hat{t}_{y,\text{HT}}}\).

Cet estimateur est approximativement sans biais pour \(\log{t_y}\) car \(\hat{t}_{y,\text{HT}}\) est sans biais pour \(t_y\).

L’estimateur de la variance par linéarisation est donné par \(\mathbb{V}(\hat t_{\hat{u},HT})\) où pour tout \(k \in \mathcal{U}\), \(\hat{u}_k = \frac{y_k}{\hat{t}_{y,\text{HT}}}\).

Il reste à utiliser les résultats propres au plan de sondage afin de déterminer un estimateur de la variance.

Linéarisation d’une fonction de plusieurs totaux

Il est possible d’utiliser cette approche pour des fonctions de totaux de plusieurs variables d’intérêt \(f(t_{y^1}, ..., t_{y^d})\) où \(f : \mathbb{R}^d \to \mathbb{R}\) est une fonction différentiable.

Principe de subtitution : un estimateur de \(f(t_{y^1}, ..., t_{y^d})\) est donné par \(f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d,\text{HT}}})\).

Même idée : en utilisant la formule de Taylor \[ f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d,\text{HT}}}) \approx f(t_{y^1}, ..., t_{y^d}) + \nabla f(t_{y^1}, ..., t_{y^d})( \hat{t}_{y^1, \text{HT}} - t_{y^1} , ..., \hat{t}_{y^d,\text{HT}} - t_{y^d})^T \]

Il est possible d’obtenir l’approximation de la variance suivante : \[\mathbb{V}(f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d,\text{HT}}})) \approx \mathbb{V}(\nabla f(t_{y^1}, ..., t_{y^d}) ( \hat{t}_{y^1, \text{HT}} , ..., \hat{t}_{y^d,\text{HT}})^T) = \hat{t}_{u,\text{HT}}\]

où la variable \(\{u_k\}_{k \in \mathcal{U}}\) est définie pour tout \(k \in \mathcal{U}\) par \(u_k = \nabla f(t_{y^1}, ..., t_{y^d}) (y^1_k, ..., y^d_k)^T\)

\(u_k\) est la variable linéarisée associée à \(f\) \(\to\) même problème que dans les cas univarié : pas accès aux totaux.

Linéarisation d’une fonction de plusieurs totaux (2)

\(u_k\) est la variable linéarisée associée à \(f\) \(\to\) même problème que dans les cas univarié : pas accès aux totaux.

\(\to\) utilisation de la variable linéarisée estimée : \(\hat u_k = \nabla f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{y^d,\text{HT}}) (y^1_k, ..., y^d_k)^T\).

Estimation par subtitution : \(\hat{V}_\text{lin}(f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d,\text{HT}}})) = \mathbb{V}( \nabla f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d},\text{HT}}) ( \hat{t}_{y^1, \text{HT}} , ..., \hat{t}_{y^d,\text{HT}} )^T) = \mathbb{V}(\hat{t}_{\hat{u},\text{HT}})\)

Théorème 3 (Estimation de la variance par linéarisation) L’estimateur de la variance par linéarisation d’une fonction d’intérêt de la forme \(f(t_{y^1}, ..., t_{y^d})\) est donné par \(\displaystyle \hat{\mathbb{V}}_\text{lin}(f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d,\text{HT}}})) = \mathbb{V}( \nabla f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d},\text{HT}}) ( \hat{t}_{y^1, \text{HT}} , ..., \hat{t}_{y^d,\text{HT}})^T)\)

Exemple de linéarisation

Supposons que nous disposons de deux variables d’intérêt \(y^{(1)}\) (par exemple, la part de transferts sociaux) et \(y^{(2)}\) (par exemple, le revenu total) et que nous souhaitons connaître un estimateur du ratio des totaux \(R_{y^{(1)}, y^{(2)}} = \frac{t_{y^{(1)}}}{t_{y^{(2)}}}\).
L’estimateur par subtitution de \(R_{y^{(1)}, y^{(2)}}\) noté \(\hat{R}_{y^{(1)}, y^{(2)}, \text{sub}}\) est donné par \(\hat{R}_{y^{(1)}, y^{(2)}, \text{sub}} = \frac{\hat{t}_{y^{(1)},\text{HT}}}{\hat{t}_{y^{(2)},\text{HT}}}\) .
Cet estimateur est approximativement sans biais (le biais est d’autant plus faible que les estimateurs des totaux ont une faible variance et que la fonction d’intérêt ne fluctue pas trop - on suppose que pour tout \(k \in \mathcal{U}, \pi_k > 0\)).
Quid de la variance ?
- Malheureusement, \(\mathbb{V}(\hat{R}_{\text{sub}}) = \mathbb{V}\left(\frac{\hat{t}_{y^{(1)},\text{HT}}}{\hat{t}_{y^{(2)},\text{HT}}}\right) \neq \frac{\mathbb{V}(\hat{t}_{y^{(1)},\text{HT}})}{\mathbb{V}({\hat{t}_{y^{(2)},\text{HT}})}}\)
- Utilisation du principe de substitution.

Exemple de linéarisation (2)

\(f : (x,y) \in \mathbb{R} \times \mathbb{R}^* \to \frac{x}{y}\)
Pour tout \((x,y) \in \mathbb{R} \times \mathbb{R}^*\), \(\nabla f(x,y) = (\frac{1}{y}, \frac{-x}{y})\)
La variable linéarisée pour un individu \(k\) vaut donc \(u_k = \frac{y^{(1)}_k}{t_{y^{(2)}}} - \frac{t_{y^{(1)}}}{t_{y^{(2)}}^2} y^{(2)}_k = \frac{1}{t_{y^{(2)}}} (y^{(1)}_k - R_{y^{(1)}, y^{(2)}} y^{(2)}_k)\)
La variable linéarisée estimée pour un individu \(k\) vaut \(\hat{u}_k = \frac{1}{\hat{t}_{y^{(2)},\text{HT}}} (y^{(1)}_k - \hat{R}_{y^{(1)}, y^{(2)},\text{sub}} y^{(2)}_k)\)

L’estimateur de la variance par \(\mathbb{V}(\hat{R}_{y^1, y^2, \text{sub}})\) est approximativement \(\mathbb{V(\hat{t}_{\hat{u}, \text{HT}})}\) où \(\hat{u}_k = \frac{1}{\hat{t}_{y^{(2)},\text{HT}}} (y^{(1)}_k - \hat{R}_{y^{(1)}, y^{(2)},\text{sub}} y^{(2)}_k)\).

Comment utiliser la linéarisation pour estimer la variance d’un estimateur par subtitution?

On souhaite obtenir une estimation de la variance de \(f(t^1_y,..., t^d_y)\) où \(f : \mathbb{R}^d \to \mathbb{R}\)

Calculer un estimateur de la variance de l’estimateur du total d’Horvitz-Thompson pour une variable d’intérêt quelconque \(\{y_k\}\).
Calculer la variable linéarisée estimée \(\hat u_k = \nabla f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{y^d,\text{HT}}) (y^1_k, ..., y^d_k)^T\)
Utiliser l’estimateur de la première étape sur la variable linéarisée estimée.